from transformers import  TrainingArguments
train_args = TrainingArguments(    
    output_dir="output_qwen3",# 训练好的模型保存在这里    
    per_device_train_batch_size=4,# 每GPU批量大小    
    gradient_accumulation_steps=2,# 梯度累积步数,实际批量大小为2x4=8   
    logging_steps=10,  # 每10步记录日志,即输出：loss,earning_rate,epoch等信息    
    num_train_epochs=3, # 训练 6 epoch,(也就是epoch最终=2)    
    save_steps=250, # 每250步保存模型    
    learning_rate=1e-4, # 学习率,从10e-5开始逐步往下降,每10步降0.2e-5   
    save_on_each_node=True, # 每个节点保存模型    
    gradient_checkpointing=True,# 开启梯度检查点以节省内存   
    report_to="none", # 不向任何平台报告训练指标
    optim="adamw_8bit",
    fp16=True,
    bf16=False,
    remove_unused_columns=False,
)  
